11. RL 强化学习中的 Reward 与 Preference Learning

在大模型后训练中,

Fine-tuning(微调)解决的是:

“模型如何模仿人类”。

而 Reinforcement Learning(强化学习,RL)解决的是:

“模型如何自己变得更好”。

现代大模型:

都大量使用:

Preference Learning(偏好学习)

即:

让模型学习“什么回答更好”。


1. Fine-tuning 与 RL 的区别

Fine-tuning(SFT)

SFT 的核心思想:

直接给模型标准答案。

例如:

input:
如何煮面?

output:
1. 烧水
2. 下面
3. 放调料

模型学习:

模仿人类回答。


RL(强化学习)

RL 不直接告诉模型:

“正确答案是什么”。

而是告诉模型:

“哪个回答更好”。

模型通过奖励机制:


2. Fine-tuning 与 RL 对比表

对比项 Fine-tuning(SFT) Reinforcement Learning(RL)
核心思想 模仿标准答案 最大化奖励
数据形式 Input → Output Input → Reward
学习目标 学会人类回答 学会高奖励行为
是否需要标准答案 需要 不一定
推理探索能力 较弱 更强
稳定性 相对不稳定
创造性 有限 更强
核心依赖 高质量数据 高质量奖励

3. 什么是 Reward(奖励)

RL 中最核心的概念:

Reward(奖励)

Reward 本质上是:

“这个回答有多好”。


4. 最简单的 Reward Checker

一种最基础的方法是:

规则检查器(Rule-based Checker)


示例:代码检查

问题:
写一个 Python 函数

检查器可以检查:


数学检查

例如:

2 + 3 = ?

检查器直接验证:

答案是否等于 5

Think 检查

例如:

是否包含 <think>

5. 简单 Reward Checker 的问题

规则检查器虽然简单。

但存在很多问题。

例如:


示例

Hello!!!!!!!

可能被认为:

“非常热情”

但实际上:

很奇怪。


6. Reward Model(奖励模型)

因此现代 RL 通常会训练:

Reward Model(RM,奖励模型)

它本质上是:

一个专门负责“打分”的模型。


7. Reward Model 的输入输出

输入:

Question + Answer

输出:

Reward Score

例如:

回答 分数
很自然 9.5
一般 6.0
很差 1.0

8. Reward Model 如何训练

核心思想:

让奖励模型学习人类偏好。


9. 人工标注(Human Preference Labeling)

例如:

对于同一个问题:

如何学习 Python?

模型生成三个答案:


回答 A

详细、礼貌、结构清晰


回答 B

内容错误


回答 C

很短,没有帮助


10. 人类排序

人工标注员进行排序:

A > C > B

即:

A 最好,
B 最差。


11. 转换成 Preference Pair

通常会转换成:

(A > B)
(A > C)
(C > B)

这些叫:

Preference Pairs(偏好对)


12. Reward Model 的训练目标

Reward Model 学习:

Reward(A) > Reward(B)

即:

好回答应该获得更高分。


13. Reward Model 训练流程

graph TD

A[同一个问题]
--> B[模型生成多个回答]

B --> C[人工排序 Preference]

C --> D[生成偏好对]

D --> E[训练 Reward Model]

E --> F[输出 Reward Score]

14. 强化学习的核心目标

RL 的目标是:

最大化 Reward(奖励)。

即:

让模型越来越倾向生成高奖励回答

15. 一个关键问题

问题:

Reward 不在模型权重里,
如何优化模型?


16. RL 的核心思想

RL 并不是直接修改 Reward。

而是:

修改生成 Token 的概率。


17. RL 的真正优化目标

核心目标:

提高高奖励 Token 的概率
降低低奖励 Token 的概率

18. RL 是一个循环

完整 RL Loop:

graph TD

A[用户输入 Prompt]
--> B[LLM生成回答]

B --> C[Reward Model评分]

C --> D[计算Reward]

D --> E[反向传播]

E --> F[更新模型参数]

F --> G[模型更倾向高奖励回答]

G --> A

19. PPO(Proximal Policy Optimization)

PPO 是经典 RLHF 算法之一。

中文:

近端策略优化。


20. PPO 的核心思想

PPO 不会:

一次性大幅修改模型。

因为:

因此 PPO 会:

“小步稳定更新”。


21. PPO 的关键组件

PPO 通常包括:

组件 作用
Policy Model 当前LLM
Reward Model 打分
Reference Model 防止模型偏移太远
Value Model 预测奖励
GAE 优势估计

22. 为什么需要 Reference Model

如果没有限制:

模型可能:

因此 PPO 会加入:

KL Penalty(KL惩罚)

限制模型不要偏离原模型太远。


23. GAE(广义优势估计)

GAE:

Generalized Advantage Estimation

作用:

更稳定估计“当前 Token 是否比平均更好”。


24. PPO 流程图

graph TD

A[Prompt 输入]
--> B[当前LLM生成回答]

B --> C[Reward Model评分]

B --> D[Reference Model计算KL]

B --> E[Value Model预测奖励]

C --> F[Reward]

D --> F

E --> G[GAE优势估计]

F --> G

G --> H[PPO更新模型]

H --> I[模型生成更高奖励回答]

25. PPO 的问题

PPO 很强。

但代价也很大:

因此:

出现了 GRPO。


26. GRPO(Group Relative Policy Optimization)

GRPO 是 DeepSeek 等模型使用的重要 RL 方法。

核心思想:

不再单独训练 Value Model。


27. GRPO 的方法

对于一个输入:

Question

模型生成:

y1, y2, y3 ...

多个回答。

然后:


28. GRPO 的核心思想

不是预测:

绝对奖励

而是:

谁比谁更好

29. GRPO 的优势

相比 PPO:

PPO GRPO
需要Value Model 不需要
显存更大 更省显存
训练复杂 更简单
更稳定 更适合LLM

30. GRPO 流程图

graph TD

A[Prompt 输入]
--> B[LLM生成多个回答]

B --> C1[y1]
B --> C2[y2]
B --> C3[y3]

C1 --> D[Reward Model]
C2 --> D
C3 --> D

D --> E[计算各自Reward]

E --> F[组内比较 Group Relative]

F --> G[计算Advantage]

G --> H[更新模型]

H --> I[提升高奖励回答概率]

31. PPO 与 GRPO 本质区别

PPO

核心:

学习“每一步值多少钱”。

需要:


GRPO

核心:

直接比较“谁更好”。

不需要:

因此更轻量。


32. RL Preference Learning 的本质

本质上:

让模型逐渐形成“偏好”。

例如:


33. 一句话总结

Fine-tuning:

教模型模仿人类答案。

RLHF:

教模型学习人类偏好。

PPO:

小步稳定优化奖励。

GRPO:

用组内比较代替 Value Model,更适合现代推理模型。